class: inverse,left, middle background-image: url(data:image/png;base64,#background.png) background-size: cover <img src="data:image/png;base64,#LOGO_DIPLOMADO.png" width="500px"/> ##Módulo 5: Manejo de datos climáticos avanzados ### Correlaciones y Regresión lineal Matías Olea <br> <a href="https://orcid.org/0000-0003-0194-7784"> ORCID </a><br> matias.olea@pucv.cl</a><br> .large[<b><a href="https://www.pucv.cl/uuaa/site/edic/base/port/labgrs.html">LabGRS</a> | Abril 2024</b>] <br> --- class: center,middle background-image: url(data:image/png;base64,#labgrs_logo.png) background-size: 35% --- ## Contenidos .pull-left[ 1) ¿Qué es una correlación? 2) Correlación vs Causalidad. 3) Variable independiente y dependiente: Ecuación de la recta. 4) Coeficientes de correlación. 5) Cálculo de correlaciones, tipos y correlogramas. 6) Regresión lineal. ] .pull-right[ <img src="data:image/png;base64,#https://raw.githubusercontent.com/allisonhorst/stats-illustrations/main/rstats-artwork/r_rollercoaster.png" width="650px"/> ] --- ### ¿Qué es una correlación? Las correlaciones son una técnica estadística que nos indica si dos variables están relacionadas entre ella o no. Las correlaciones son cuantificadas a través de los coeficientes de correlación; los más utilizados son el de **Pearson (r; erre)**, **Spearman (ρ; rho)** y **Kendall (τ; tau)**. Es frecuente encontrar en literatura que el coeficiente más utilizado es el de Pearson pero, para utilizarlo, debemos asegurarnos que nuestros datos tienen una _distribución normal_. <img src="data:image/png;base64,#Correlaciones_files/figure-html/unnamed-chunk-1-1.png" width="100%" /> --- ### Correlación vs Causalidad Si el comportamiento de ambas variables es semejantes: ¿están relacionadas? .pull-left[ <center><img src="data:image/png;base64,#Imagen1.png" width="500"/></center> ] .pull-right[ <center><img src="data:image/png;base64,#Imagen2.png" width="500"/></center> ] La **correlación** describe la asociación entre 2 variables. Mientras que la **causalidad** se refiere a la relación de causa-efecto entre 2 variables. Cuando especídicamente cambia una variable, la otra se ve afectada, como por ejemplo si aplicamos temperatura al agua, esta empezará a hervir. --- ### Correlación vs Causalidad <center><img src="data:image/png;base64,#Imagen3.png" width="500"/></center> La correlación y la causalidad están relacionados uno con el otro, pero no pueden ser reconocidos como sinonimos. --- ### Correlación vs Causalidad .pull-left[ <center><img src="data:image/png;base64,#Imagen4.png" width="500"/></center> ] .pull-right[ <center><img src="data:image/png;base64,#Imagen5.png" width="500"/></center> ] --- ### Correlación vs Causalidad - Que una correlación sea significativa no significa necesariamente que exista causalidad entre ambos eventos. - En mi opinion, **no existen correlaciones cualitativas** (al ojo). Se debe calcular un valor de correlación y demostrar causalidad. Pueden encontrar autores que utilizan correlaciones visuales en sus trabajos. No existe una sola verdad. - **No existen las correlaciones por “superposición”**. Si comparamos dos mapas con diferentes índices y estos tienen comportamiento similar, no necesariamente porque al superponerlos compartan tendencias están correlacionados. Debemos calcular las correlaciones y demostrar causalidad para ello. - La causalidad puede ser demostrada de manera cuantitativa o cualitativa a través de experimentos naturales o controlados, estudios instrumentales, meta-análisis, etc. --- ### Variable independiente y dependiente: Ecuación de la recta .pull-left[ <center><img src="data:image/png;base64,#Imagen6.png" width="500"/></center> ] .pull-right[ **Y = m * X + b** Dónde: Y = Variable independiente m = pendiente (de la recta) X = Variable dependiente b = intercepto (valor de Y cuando la recta pasa por el eje Y, o cuando X = 0) ] --- ### Coeficientes de correlaciones **Pearson (r; erre)**: Variables X e Y son cuantitativas y continuas. Tienen una distribución normal y se asume una relación lineal entre ambas. **Spearman (ρ; rho)**: Variables X e Y son cuantitativas y ordinales. No necesariamente tienen una distribución normal. **Kendall (τ; tau)**: Variables X e Y son cuantitativas y ordinales. No necesariamente tienen una distribución normal. El n de datos es muy pequeño o el rango de valores están concentrados en un rango muy pequeño. --- ### Coeficientes de correlación ```r library(tidyverse) library(readxl) emisiones <- read_excel("TuDirectorio/Co2_temp.xlsx") ``` ```r cor(x = emisiones$co2, y = emisiones$temp, method = "spearman") ``` ``` ## [1] 0.9498891 ``` ```r cor(x = emisiones$co2, y = emisiones$temp, method = "kendall") ``` ``` ## [1] 0.8080259 ``` ```r cor(x = emisiones$co2, y = emisiones$temp, method = "pearson") ``` ``` ## [1] 0.9625997 ``` --- ### ¿Cual es la variable dependiente e independiente? -- .pull-left[ <img src="data:image/png;base64,#Correlaciones_files/figure-html/unnamed-chunk-5-1.png" width="100%" /><img src="data:image/png;base64,#Correlaciones_files/figure-html/unnamed-chunk-5-2.png" width="100%" /> ] -- .pull-right[ ```r ggplot(data=emisiones, aes(x= co2, y=temp))+ geom_point(color="blue",size=2) + geom_smooth(method="lm", formula=y~x, se=F, color="red") + theme(text=element_text(family="Arial", size=18))+ scale_x_continuous(expand = c(0.005, 0.005)) + theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank(), panel.background = element_blank(), axis.line = element_line(colour = "black")) + ylab("Anomalias de temperatura global") + xlab("Emisiones globales de CO2") ``` <img src="data:image/png;base64,#Correlaciones_files/figure-html/unnamed-chunk-6-1.png" width="100%" /> ] --- ### Cálculo de correlaciones, tipos y correlogramas ```r cor.test(x = emisiones$co2, y = emisiones$temp, alternative ="two.side", conf.level = 0.95, method="pearson") ``` ``` ## ## Pearson's product-moment correlation ## ## data: emisiones$co2 and emisiones$temp ## t = 28.201, df = 63, p-value < 2.2e-16 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.9392044 0.9770984 ## sample estimates: ## cor ## 0.9625997 ``` --- ### Cálculo de correlaciones, tipos y correlogramas <center><img src="data:image/png;base64,#Imagen7.png" width="700"/></center> Source: https://doi.org/10.1002/0470013192.bsa136 --- ### Cálculo de correlaciones, tipos y correlogramas Un **correlograma** un matriz de correlación permite analizar la relación entre cada par de variables numericas dentro de nuestro ser de datos. Para ver como funcionan estos gráficos, trabajaremos con un set de datos que viene en R, esta es la tabla llamada "trees" que contiene información de su Circunferencia (Girth), Altura (Height) y Volumen (Volume): ```r arboles <- trees ```
--- ### Cálculo de correlaciones, tipos y correlogramas ```r library(corrplot) c_arboles <- cor(arboles) corrplot(c_arboles) ``` <img src="data:image/png;base64,#Correlaciones_files/figure-html/unnamed-chunk-10-1.png" width="100%" /> --- ### Cálculo de correlaciones, tipos y correlogramas ```r library(PerformanceAnalytics) chart.Correlation(arboles) ``` <img src="data:image/png;base64,#Correlaciones_files/figure-html/unnamed-chunk-11-1.png" width="100%" /> --- ### Regresión lineal La **regresión lineal** nos permite obtener los parámetros de la ecuación de la recta para que conociendo los valores X podamos predecir los valores de Y. Comunmente se utiliza para rellenar datos faltantes. Por ejemplo, en climatología y meteorología, por problemas con el equipo que registra los valores de alguna variable podemos tener ausencia de datos. Sin embargo, si contamos con los datos de otra estación cercana (estación patrón) o alguna otra estación, cuyo registro esté altamente correlacionado con la otra, podemos calcular la relación lineal para rellenar estos valores ausentes. --- ### Regresión lineal ```r # formula = Y ~ X lm(formula = temp ~ co2, data = emisiones) ``` ``` ## ## Call: ## lm(formula = temp ~ co2, data = emisiones) ## ## Coefficients: ## (Intercept) co2 ## -3.30160 0.01029 ``` El primer valor entregado (-3.3016) corresponde al intercepto, mientras que el segundo (0.01029) la pendiente. Y = m * X + b Y = 0.01029 * X + (-3.3016) --- ### Regresión lineal ```r # formula = Y ~ X lm(formula = temp ~ co2, data = emisiones) %>% summary() ``` ``` ## ## Call: ## lm(formula = temp ~ co2, data = emisiones) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.166316 -0.082150 -0.001501 0.075051 0.168605 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -3.301596 0.131628 -25.08 <2e-16 *** ## co2 0.010294 0.000365 28.20 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.09147 on 63 degrees of freedom ## Multiple R-squared: 0.9266, Adjusted R-squared: 0.9254 ## F-statistic: 795.3 on 1 and 63 DF, p-value: < 2.2e-16 ``` --- ### Regresión lineal -- ¿Qué ocurriria si las concentraciones de CO2 aumentaran a 500 y 600 kton? ```r 0.01029 * 500 + (-3.3016) ``` ``` ## [1] 1.8434 ``` ```r 0.01029 * 600 + (-3.3016) ``` ``` ## [1] 2.8724 ``` -- ... y en R? ```r modelo.lin <- lm(formula = temp ~ co2, data = emisiones) predict(modelo.lin, newdata = data.frame(co2=c(500,600))) ``` ``` ## 1 2 ## 1.845397 2.874796 ``` --- ### Bibliografía (2012) E. B. Brooks, V. A. Thomas, R. H. Wynne and J. W. Coulston, "Fitting the Multitemporal Curve: A Fourier Series Approach to the Missing Data Problem in Remote Sensing Analysis," in IEEE Transactions on Geoscience and Remote Sensing, vol. 50, no. 9, pp. 3340-3353. doi: 10.1109/TGRS.2012.2183137. (2004) Jin Chen, Per. Jönsson, Masayuki Tamura, Zhihui Gu, Bunkei Matsushita, Lars Eklundh, A simple method for reconstructing a high-quality NDVI time-series data set based on the Savitzky–Golay filter, Remote Sensing of Environment, Volume 91, Issues 3–4, (2022) Kong, D., McVicar, T. R., Xiao, M., Zhang, Y., Peña-Arancibia, J. L., Filippa, G., Xie, Y., Gu, X. phenofit: An R package for extracting vegetation phenology from time series remote sensing. Methods in Ecology and Evolution, 13, 1508– 1527. https://doi-org.pucv.idm.oclc.org/10.1111/2041-210X.13870 (2015) G. Yang, H. Shen, L. Zhang, Z. He and X. Li, "A Moving Weighted Harmonic Analysis Method for Reconstructing High-Quality SPOT VEGETATION NDVI Time-Series Data," in IEEE Transactions on Geoscience and Remote Sensing, vol. 53, no. 11, pp. 6008-6021. doi: 10.1109/TGRS.2015.2431315. --- class: inverse middle 